Cuando fallan las herramientas: Evaluando replanificación y recuperación en agentes LLM
Descubre ToolMaze, un benchmark que expone cómo los agentes LLM enfrentan fallos reales de herramientas y replanifican dinámicamente. Resultados clave y lecciones para la fiabilidad de la IA.